其他
用gensim库做文本相似性分析
之前我们讲到的文本分析包括情绪分析、共线性,也制作了词云图。今天我们在学习点关于文本相似性的知识,说好了大邓只是在此抛砖引玉,具体想学想深入的可以去看文档。
gensim简介
gensim是一个主题模型的python库,它可以将文本转换为向量,抽取文本中的关键词,比较文本间的相似程度。
gensim好用的地方是可以实现word2vec,这个算法大邓不懂内在运行时如何进行的,只知道输入的是文本,输出的是向量。
gensim有三个主要的模块,在本文中都会用到。
corpora:将文本转为向量,这里的向量是很简单的模型向量,只是为文档建立词典,然后计算文档中每个词出现的次数
models:将corpora得到的简单的模型向量转换为其他不同的向量,柏阔tfidf,lsi,lda等。
similarities:计算文本相似度的方法。
gensim官网http://radimrehurek.com/gensim/index.html
小案例
更多内容
爬虫
【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”
【视频】快来get新技能--抓包+cookie,爬微博不再是梦
文本分析
神奇的python